查看原文
其他

最大似然法估计正态分布参数

吕琼 珠江肿瘤 2024-03-27

    刚学习完似然值和概率的联系与区别,今天我们深入了解似然值在统计中的重要作用。

1. 最大似然估计定义

最大似然估计(maximum likelihood)就是利用已知的样本结果,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值。

  • 逻辑:结果 → 产生结果的条件环境条件
  • 换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即“模型已定,参数未知”。当模型满足某个分布,它的参数值便可以通过极大似然估计法求出来,如正态分布的μ和σ,指数分布的λ等等。
  • 如果还有点懵懵的,请看接下来的示例。

2. 最大似然估计的一般流程

例如我们随机测量一些小鼠的体重(如下)。最大似然估计(maximum likelihood)的目的就是根据已知少量测量结果反推最有可能产生该数据的分布。

  • 第一步:预判产生已知数据的可能分布类型。有许多的分布类型,包括正态分布、指数分数、gamma分布等等。通过已知的数据发现:①大部分数据靠近均值分布;②数据分分布整体呈现对称分布,中间值多,大值和小值少。故我们可以推测该数据可能来源于正态分布。

  • 第二步:确定正态分布的参数(位置参数μ,形态参数σ)。正态分布有多重形状,包括瘦的、中等的、胖的,故唯有计算出μ和σ之后,才能明确产生该数据的具体分布。

    • 1)位置参数μ当σ保持不变时,比较已知测量数据在不同μ值正态分布的似然值,最大似然值对应的μ即为估计正态分布的μ。

    从左至右不断平移正态分布:

     → →  →  →


    当正态分布的均值与该数据的均值相等或相近时,数据在该分布的likelihood值最大,意味着已知数据来源与该分布的可能性最大,即此时的μ为估计正态分布模型的位置参数。




    • 2)计算形态参数σ:保持已经计算出的μ不变,比较已知测量数据在不同σ值分布的似然值,最大似然值对应的σ即为估计正态分布的σ。从0开始,逐渐变化σ的取值,计算不同σ取值时正态分布对应的似然值,取似然值最大对应的σ为估计正态分布的σ。



  • 3)明确正态分布模型的参数,明确正态分布。

3. 最大似然法估计正态分布参数

正态分布有2个参数:位置参数(μ)和形态参数(σ)决定正态分布

μ越大,对应的正态分布偏右。

σ越大,对应的正态分布越矮胖。

正态分布的最大似然估计值方程解读:

  • 方程的右侧与正态分布公式的右侧完全一致;
  • 方程的左侧表示在给定某个测量值不变的情况下,不同μ与σ取值对应的似然值。
  • 最大似然估计法的目的就在于寻找最佳的μ和σ,求解已知数据下最有可能的正态分布。

(1)单个值在正态分布的似然值计算

仅有1个测量结果值为32,确定其在某种分布中的似然值。

  • 假定正态分布的μ=28和σ=2,测量值对应该正态分布曲线的值为0.03,即μ=28和σ=2的似然值为0.03。


  • 将分布曲线右移,假定正态分布的μ=30和σ=2,测量值对应该正态分布曲线的值为0.12,即μ=30和σ=2的似然值为0.12。

  • 以此类推,不断将分布曲线右移,可计算不同分布对应的似然值。

(2)最大似然法求解正态分布的参数μ和σ

1)仅有1个测量结果值为32,求出其最有可能来源的分布。。

  • 求解最优μ:将方程的变量σ固定时,即测量结果=32和σ=2这两个条件保持不变。

  • 变换不同的μ值,将得到的似然估计值绘制在坐标图上。

  • 当μ=32时,似然估计值达峰值(上方),说明峰值对应的μ值最有可能是正态分布的位置参数。


  • 求解最优σ:将方程中的变量μ=32固定,即测量结果=32和μ=32这两个条件保持不变。

  • 变换不同的σ值,将得到的似然估计值绘制在坐标图上(右上角)。当似然估计值达峰值,说明峰值对应的σ值最有可能是正态分布的形态参数。


以上展示的是最大似然估计法求解正态分布的简单原理:即固定σ时求解μ,接着固定μ时求解σ。

(3)多个值在正态分布中的似然值计算

  • 有2个测量值分别是32和34时,并假设正态分布的参数μ=28和σ=2,计算32和34同时属于某个正态分布的似然值。因为测量1与测量2的结果不相关,故可将两个测量值对应的似然值相乘

  • 有3个测量值分别是30、32和34时,并假设正态分布的参数μ=28和σ=2,计算它们同时属于该正态分布的似然值的方法同前,将三个测量值对应的似然值相乘:

  • 假设有n个测量值,计算它们同时属于某个正态分布的似然值的方法同前,将n个测量值对应的似然值相乘:

基于以上讨论,我们知道如何计算在已知许多测量结果的条件下的似然值。接下来,我们讨论如何基于数据公式,用最大似然估计法求解正态分布的位置参数(μ)和形态参数(σ)

(4)数学推导正态分布参数

  • 有2个测量值分别是32和34时,并假设正态分布的参数μ=28和σ=2,计算

因为当已知测量在某个分布的似然估计值达到峰值时,斜率=0时,该分布对应的μ和σ为求解正态分布的参数。故我们可以利用数学求导的方法分别求解μ和σ。

  • 为方便求导,将正态分布的似然方程进行对数处理并简化方程:

  • 将σ视为常数,对含μ的方程求导并简化方程;将μ视为常数,对含σ的方程求导并简化方程。

  • 分别令μ和σ的导数为零,求解μ和σ:

通过公式转换后,最后得出基于n个测量数据的正态分布参数最有可能是:

μ=样本均值;

σ=样本标准差。

4.小结

    这一小节中,我们逐渐深入的了解最大似然值估计在求解正态分布参数中的运用,像是打开了知识世界的另外一扇大门一样充满新意。

参考视频:

  1. https://www.youtube.com/watch?v=XepXtl9YKwc&list=PLblh5JKOoLUK0FLuzwntyYI10UQFUhsY9&index=36

  2. https://www.youtube.com/watch?v=Dn6b9fCIUpM&list=PLblh5JKOoLUK0FLuzwntyYI10UQFUhsY9&index=40


编辑:吕琼

校审:罗鹏



继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存